Praca Domowa 3

Bartosz Siński Winiarze

W obecnej pracy domowej zastosujemy na naszym modelu metode Ceteris paribus skupiającą się na zmianach predykcji modelu wywoływanymi zmianami wartościi poszczególnych zmiennych. W poprzednich pracach zauważyliśmy, że wysoka zawartość alkoholu i siarczynów (sulphates) w większości przypadków wpływały na poprawę prognozowanej oceny. Wysoka całkowita zawartość dwutlenku siarki (total sulfur dioxide) za to zawszę tę ocenę obniżała. W analizie skupimy się na zweryfikowaniu tych wniosków.

Przygotowanie danych, modelu i explainera

Dekompozycja predykcji modelu dla wybranej obserwacji

Widzimy, że najważniejsza dla naszego modelu zmienna alkohol na badanej przez nas obserwacji do pewnego momentu zachowuje się w sposób jaki przewidzieliśmy. Ciekawy wydaje się być za to fakt, że od pewnej wartości prawdopodobieńswto predykcji wina jako dobrego spada i utrzymuje się na poziomie około 0.6. Jednak wyniki dla siarczynów i dwutlenku siarki dla tej obserwacji nie potwierdzają naszych przewidywań.

Dekompozaycja predykcji modelu dla różnych obserwacji

Dla dwóch powyższych obserwacji przy większości zmiennych wykresy wydają się iść równolegle. Jednak dla takich zmiennych jak pH, zawartość kwasu cytrynowego (citric acid) i kwasowość stała (fixed acidity) predykcje różnią się od siebie. Dla kwasowości stałej pierwsza obserwacja ma prawie stałą wartość predykcji 0.52. Druga obserwacja dla większości wartości ma mniejszą wartość predykcji po czym następuje skok, po którym utrzymuje prawdopodobieństwo na 0.6 . Także dla pH druga obserwacja zalicza skok w wartości 3.2 i rośnie w wartościach, w których pierwsza maleje. Dodatkowo przy niskiej zawartości kwasu cytrynowego wartość predykcji pierwszej obserwacji rośnie, a drugiej maleje. Ponadto widzimy, że wartości drugiej obserwacji są w większości przypadków bardziej zmienne, mają większe skoki i różnice w prawdoposobieństwach predykcji.

Wnioski

Badane przez nas obserwacje wykazały, że zależność między alkoholem, a oceną wina jest bardziej złożona niż myśleliśmy (wino słabe - złe, wino mocne - dobre). Nie zobaczyliśmy także nigdzie przewidywanych zależności między oceną, a zawartością siarczanów i tylko dla jednej obserwacji rosnąca zawartość dwutlenku siarki oznaczała spadek jakości wina. Obserwacje w większości miały podobne tendencje dla wybranych zmiennych jednak niektóre z nich miały większe skoki, spadki i różnice między wartościami.